相信各位IT夥伴對於備份與還原皆很熟悉,各自有備援與資料備份的方案。尚未投入資安領域前,我已經開始協助資料備份的工作,那時候對於資料備份概論及策略完全沒概念,只是照著資深工程師的指示,按時間表替換磁帶,定期監控資料備份情況,如果前一天伺服器備份或某資料備份失敗,就連絡廠商SUPPORT處理,每年都聽到資深工程師在和主管討論COOP,也不知道那是什麼(COOP是可以吃的冰淇淋嗎?)
日後為了Security+證照學習的時候才知道COOP是Continuity of Operation Plan的簡稱,由美國聯邦緊急事務管理署Federal Emergency Management Agency (FEMA)制定準則,確保在重大災難危害時各項事務運作,書上也提到通常備援場所依據設備完善度分為以下三類:
選擇正確方案建立適合的備援場所,取決於RTO和RPO。RTO即是Recovery Time Objective,復原耗時目標,也就是組織能承受服務中斷多久?RPO即 Recovery Point Objective 復原點目標,系統須回複至過去的一個時間點,也就是說之前就需要評估多少資料損失是可以接受的。當時學了很多關於備援的知識,但是總覺得這很簡單啊!何必花一整章節介紹呢?只要平時HA做好,資料備份確實,備援場所準備好就解決了。
2012年,颶風珊迪襲擊美國東海岸,公司本部大樓停電,風雨剛過我們便接到指令要轉至備援場所,盡快讓系統ONLINE,接著其他部門員工才能繼續工作,那才是災難的開始。
原來之前在做Business Continuity Planning企業永續運作計畫時,很多部門沒有正視其重要性,存有僥倖心理,沒有完整提供業務需求,所以當我們照著COOP計畫書一項一項將系統依重要性先後恢復時,那些部門發現漏了一些最重要的部分,造成自己部門完全癱瘓什麼也做不了,紛紛吵著要MIS趕緊解決,還有很多奇怪狀況,原本已是分秒必爭的狀態,人力短缺卻還要分身去處理,間接延誤恢復的時間。例如有一位員工把重要業務通訊錄存在電腦本機上的EXCEL檔,沒有存在網路硬碟或利用OUTLOOK的通訊錄,一直要我們盡快處理不然他無法聯絡;有一位更是怒氣沖沖直接找人開罵,說「都什麼時候了還不快把防火牆關掉!延誤了你們賠得起嗎?」我們了解後才發現其實和防火牆毫無關聯,該名員工要使用的網路服務需要特定Certificate,然而這一切的一切都是可以事先設定處理好,災難發生時可以無縫接軌的,可惜。所以事先規劃時,建議一定要確實Business Impact Analysis (BIA)營運衝擊分析,評估如果這項系統無法使用會有什麼影響,訂好系統RTO和RPO,免得應付天災的同時還要面對指責。
「世上有很多蠢材,專幹傻事的蠢材!
蠢材無處不在,壟斷了整個世界......
導致每朝每代都發生了可悲的傻事!」--《火鳳燎原》
平時注重備援方案嗎?是否有定期測試演練呢?明天將分享颶風珊迪過後的檢討與改善。
我發現我們公司跟你們不一樣,都很狂,狂到自己玩出一套解釋,狂到不管甚麼技術、法令、辦法,就是有辦法弄出一套狂邏輯! 看來只有我最蠢~~~~
可以適當的客製化,畢竟每間公司情況都不一樣。但總不能要求所有系統一小時RTO卻用cold site 吧?
是什麼樣的邏輯啊?(好奇~)方便私訊一下?
狂到用不相干的法令來跟我解釋,好比說拿著公司法來解釋資安法,而且還會狂到有一套脈絡出來~~~立法院他家開的!